Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37
Warning: file_put_contents(aCache/aDaily/post/ds_interview_lib/--): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50 Библиотека собеса по Data Science | вопросы с собеседований | Telegram Webview: ds_interview_lib/967 -
✅Чем отличается использование памяти у оптимизаторов Adam и SGD
Adam потребляет больше памяти, чем стандартный SGD, потому что хранит дополнительные данные для адаптивного обновления параметров.
Adam хранит для каждого параметра две дополнительные переменные: 📍m — экспоненциальное среднее градиентов (первая моментная оценка), 📍 v — экспоненциальное среднее квадратов градиентов (вторая моментная оценка).
То есть если у модели 10 млн параметров, Adam будет хранить ещё 20 млн значений (всего 30 млн), что заметно увеличивает потребление памяти.
SGD: 📍В базовом виде — не хранит ничего, кроме самих параметров. 📍С momentum — хранит один дополнительный буфер (скорость), то есть на одну переменную больше на каждый параметр.
На практике: ➡️Если у вас ограничения по GPU-памяти, и модель или батчи не вмещаются, можно перейти с Adam на SGD, чтобы высвободить память. ➡️Но стоит помнить, что Adam часто сходится быстрее и лучше работает с разреженными градиентами (например, при работе с текстами или рекомендациями).
Некоторые фреймворки (например, PyTorch) предоставляют памяти-эффективные версии Adam, но они могут требовать ручной настройки или иметь побочные эффекты.
✅Чем отличается использование памяти у оптимизаторов Adam и SGD
Adam потребляет больше памяти, чем стандартный SGD, потому что хранит дополнительные данные для адаптивного обновления параметров.
Adam хранит для каждого параметра две дополнительные переменные: 📍m — экспоненциальное среднее градиентов (первая моментная оценка), 📍 v — экспоненциальное среднее квадратов градиентов (вторая моментная оценка).
То есть если у модели 10 млн параметров, Adam будет хранить ещё 20 млн значений (всего 30 млн), что заметно увеличивает потребление памяти.
SGD: 📍В базовом виде — не хранит ничего, кроме самих параметров. 📍С momentum — хранит один дополнительный буфер (скорость), то есть на одну переменную больше на каждый параметр.
На практике: ➡️Если у вас ограничения по GPU-памяти, и модель или батчи не вмещаются, можно перейти с Adam на SGD, чтобы высвободить память. ➡️Но стоит помнить, что Adam часто сходится быстрее и лучше работает с разреженными градиентами (например, при работе с текстами или рекомендациями).
Некоторые фреймворки (например, PyTorch) предоставляют памяти-эффективные версии Adam, но они могут требовать ручной настройки или иметь побочные эффекты.
A leaked Telegram discussion by 50 so-called crypto influencers has exposed the extraordinary steps they take in order to profit on the back off unsuspecting defi investors. According to a leaked screenshot of the chat, an elaborate plan to defraud defi investors using the worthless “$Few” tokens had been hatched. $Few tokens would be airdropped to some of the influencers who in turn promoted these to unsuspecting followers on Twitter.
What is Secret Chats of Telegram
Secret Chats are one of the service’s additional security features; it allows messages to be sent with client-to-client encryption. This setup means that, unlike regular messages, these secret messages can only be accessed from the device’s that initiated and accepted the chat. Additionally, Telegram notes that secret chats leave no trace on the company’s services and offer a self-destruct timer.
Библиотека собеса по Data Science | вопросы с собеседований from in